智能论文笔记

Hierarchical Semantic Regularization of Latent Spaces in StyleGANs

Tejan Karmali , Rishubh Parihar , Susmit Agrawal , Harsh Rangwani , Varun Jampani , Maneesh Singh , R. Venkatesh Babu

分类：计算机视觉

2022-08-07

GAN的进展使高分辨率的感性质量形象产生了产生。 stylegans允许通过数学操作对W/W+空间中的潜在样式向量进行数学操作进行引人入胜的属性修改，从而有效调节生成器的丰富层次结构表示。最近，此类操作已被推广到原始StyleGan纸中的属性交换之外，以包括插值。尽管StyleGans有许多重大改进，但仍被认为会产生不自然的图像。生成的图像的质量基于两个假设。（a）生成器学到的层次表示的丰富性，以及（b）样式空间的线性和平滑度。在这项工作中，我们提出了一个层次的语义正常化程序（HSR），该层次正常化程序将生成器学到的层次表示与大量数据学到的相应的强大功能保持一致。 HSR不仅可以改善发电机的表示，还可以改善潜在风格空间的线性和平滑度，从而导致产生更自然的样式编辑的图像。为了证明线性改善，我们提出了一种新型的度量 - 属性线性评分（ALS）。通过改善感知路径长度（PPL）度量的改善，在不同的标准数据集中平均16.19％的不自然图像的生成显着降低，同时改善了属性编辑任务中属性变化的线性变化。

translated by 谷歌翻译

Everything is There in Latent Space: Attribute Editing and Attribute Style Manipulation by StyleGAN Latent Space Exploration

Rishubh Parihar , Ankit Dhiman , Tejan Karmali , R. Venkatesh Babu

分类：计算机视觉 | 人工智能

2022-07-20

现在，使用最近的生成对抗网络（GAN）可以使用高现实主义的不受约束图像产生。但是，用给定的一组属性生成图像非常具有挑战性。最近的方法使用基于样式的GAN模型来执行图像编辑，通过利用发电机层中存在的语义层次结构。我们提出了一些基于潜在的属性操纵和编辑（火焰），这是一个简单而有效的框架，可通过潜在空间操纵执行高度控制的图像编辑。具体而言，我们估计了控制生成图像中语义属性的潜在空间（预训练样式的）中的线性方向。与以前的方法相反，这些方法依赖于大规模属性标记的数据集或属性分类器，而火焰则使用一些策划的图像对的最小监督来估算删除的编辑指示。火焰可以在保留身份的同时，在各种图像集上同时进行高精度和顺序编辑。此外，我们提出了一项新颖的属性样式操纵任务，以生成各种样式的眼镜和头发等属性。我们首先编码相同身份的一组合成图像，但在潜在空间中具有不同的属性样式，以估计属性样式歧管。从该歧管中采样新的潜在将导致生成图像中的新属性样式。我们提出了一种新颖的抽样方法，以从歧管中采样潜在的样品，使我们能够生成各种属性样式，而不是训练集中存在的样式。火焰可以以分离的方式生成多种属性样式。我们通过广泛的定性和定量比较来说明火焰与先前的图像编辑方法相对于先前的图像编辑方法的卓越性能。火焰在多个数据集（例如汽车和教堂）上也很好地概括了。

translated by 谷歌翻译

Estimation of Appearance and Occupancy Information in Birds Eye View from Surround Monocular Images

Sarthak Sharma , Unnikrishnan R. Nair , Udit Singh Parihar , Midhun Menon S , Srikanth Vidapanakal

分类：计算机视觉 | 机器人

2022-11-08

Autonomous driving requires efficient reasoning about the location and appearance of the different agents in the scene, which aids in downstream tasks such as object detection, object tracking, and path planning. The past few years have witnessed a surge in approaches that combine the different taskbased modules of the classic self-driving stack into an End-toEnd(E2E) trainable learning system. These approaches replace perception, prediction, and sensor fusion modules with a single contiguous module with shared latent space embedding, from which one extracts a human-interpretable representation of the scene. One of the most popular representations is the Birds-eye View (BEV), which expresses the location of different traffic participants in the ego vehicle frame from a top-down view. However, a BEV does not capture the chromatic appearance information of the participants. To overcome this limitation, we propose a novel representation that captures various traffic participants appearance and occupancy information from an array of monocular cameras covering 360 deg field of view (FOV). We use a learned image embedding of all camera images to generate a BEV of the scene at any instant that captures both appearance and occupancy of the scene, which can aid in downstream tasks such as object tracking and executing language-based commands. We test the efficacy of our approach on synthetic dataset generated from CARLA. The code, data set, and results can be found at https://rebrand.ly/APP OCC-results.

translated by 谷歌翻译

Bayesian Optimization for Macro Placement

Changyong Oh , Roberto Bondesan , Dana Kianfar , Rehan Ahmed , Rishubh Khurana , Payal Agarwal , Romain Lepert , Mysore Sriram , Max Welling

分类：机器学习

2022-07-18

宏位置是将内存块放在芯片画布上的问题。它可以在序列对上表达为组合优化问题，该表示形式描述了宏的相对位置。解决此问题尤其具有挑战性，因为目标功能评估昂贵。在本文中，我们通过序列对使用贝叶斯优化（BO）开发了一种新颖的方法来宏观放置。 BO是一种机器学习技术，它使用概率的替代模型和一个采集功能，可以平衡探索和开发以有效地优化黑盒目标函数。 BO比强化学习更有效率，因此可以与更现实的目标一起使用。此外，从数据中学习并将算法适应目标函数的能力使BO成为其他黑盒优化方法（例如模拟退火）的吸引人替代方法，该方法依赖于问题依赖性的启发式方法和参数调整。我们在固定外线宏观位置问题上基准了我们的算法，并具有半二级线长度目标，并表现出竞争性能。

translated by 谷歌翻译

Multilingual Event Linking to Wikidata

Adithya Pratapa , Rishubh Gupta , Teruko Mitamura

分类：自然语言处理

2022-04-13

我们提出了将事件链接到知识库的多语言链接的任务。我们会自动编译一个针对此任务的大型数据集，包括180万个涉及Wikidata超过10.9k事件的44种语言提及。我们提出了事件链接任务的两个变体：1）多语言，其中事件描述来自与提及的语言相同的语言，以及2）交叉语言，其中所有事件描述均以英语为单位。在提出的两个任务上，我们比较了包括BM25+（LV和Zhai，2011年）在内的多个事件链接系统以及Blink（Wu等，2020）的Biencoder和Crossencoder体系结构的多语言改编。在我们对两个任务变体的实验中，我们发现Biencoder和Crossencoder模型均显着优于BM25+基线。我们的结果还表明，跨语言任务通常比多语言任务更具挑战性。为了测试所提出的链接系统的室外概括，我们还创建了基于Wikinews的评估集。我们提出了定性分析，强调了拟议数据集捕获的各个方面，包括需要在上下文上进行时间推理并解决跨语言的各种事件描述。

translated by 谷歌翻译